跳到主要内容

AI 绘图技术体系

把 AI 绘图的技术体系划分为三个完全不同的维度

维度一:模型/产品名称(“汽车品牌”)

  • 代表: FLUX、Stable Diffusion (SD)、Midjourney、DALL-E 3。
  • 解释: 这是最终打包推向市场的成品名字。它包含了一整套训练好的权重、文本编码器和生成器。

维度二:神经网络架构(“发动机引擎结构”)

  • 代表: UNetDiT (Diffusion Transformer)、CNN (卷积神经网络)、GAN (生成对抗网络)。
  • 解释: 这是 AI 用来“画画”的底层代码骨架。它决定了 AI 是用什么样的方式去观察和处理图像像素的
    • UNet 的工作方式(SD 系列在用): 它是基于“卷积”的。就像拿着放大镜一点点扫过画布,先把高清大图压缩成一团极小的马赛克(提取出高级特征,这是 U 字的谷底),然后再慢慢放大还原成清晰的图像。这种方式擅长处理局部的纹理,但容易“缺乏大局观”(比如画错手指数、写错英文字母)。
    • DiT 的工作方式(FLUX 在用): 它借鉴了 ChatGPT 的思路。不搞压缩放大,而是直接把图片切成一个个小方块(Patches)。然后利用“全局注意力机制”,让每一个方块都能同时看到其他所有方块。这就赋予了它极强的全局结构感和文本渲染能力。

维度三:数学生成范式(“物理定律与底层逻辑”)

  • 代表: Diffusion(扩散模型)Flow Matching(流匹配)、Autoregressive(自回归)。
  • 解释: 这是指导引擎如何“从无到有”生成数据的最高数学原则。
    • Diffusion: 对应弯曲的去噪轨迹。
    • Flow Matching: 对应拉直的线性轨迹。

对号入座

按照这三个维度,我们可以清晰地画出两代霸主的技术族谱:

  • 旧时代的王者(如 Stable Diffusion XL): 品牌是 SDXL ➡️ 发动机架构是 UNet ➡️ 数学原理是 Diffusion(扩散)
  • 新时代的王者(如 FLUX.1): 品牌是 FLUX ➡️ 发动机架构是 DiT ➡️ 数学原理是 Flow Matching(流匹配)

当前流行图像模型多维度拆解表

维度一:模型/产品名称 (汽车品牌)维度二:神经网络架构 (发动机引擎)维度三:数学生成范式 (物理定律)核心优势与定位 (附加说明)
Flux.1 (Black Forest Labs)MM-DiT (多模态 Transformer)Flow Matching (流匹配)目前开源界的绝对画质霸主,彻底解决手部变形和复杂文本渲染问题。
SD3 / 3.5 (Stability AI)MM-DiT (多模态 Transformer)Flow Matching (流匹配)采用双流结构,对复杂长提示词和空间位置关系的理解极强。
SDXL (Stability AI)UNet (U型卷积网络)Diffusion (扩散模型)上一代开源霸主,生态极其庞大,拥有无数成熟的 LoRA 和 ControlNet。
Kolors (可图) (快手)改进版 UNetDiffusion (扩散模型)结合了强大的大语言模型作为文本编码器,中文语义理解极具优势。
Qwen-Image / Edit (阿里)DiT (扩散 Transformer)Diffusion (扩散模型)阿里最新开源主力,原生支持极高精度的局部修复与图像拓展编辑。
LongCat-Image (美团)紧凑型 DiT (文生图与编辑同源)Diffusion (扩散模型)最新开源黑马,主打单图精细化编辑与汉字的高精度渲染。
Hunyuan-DiT (腾讯)DiT (扩散 Transformer)Diffusion (扩散模型)国内首批全面采用 DiT 架构的开源模型,中英文双语原生支持,画风多样。
------------
Nano Banana 2 / Pro (Google)自研多模态 TransformerDiffusion (扩散衍生)(闭源) Gemini 3 家族的原生图像模型。主打极速响应、真实的物理世界知识推理(思考功能)和惊艳的多语言排版渲染。
GPT-Image 2 (OpenAI)自研多模态 TransformerDiffusion (扩散衍生)(闭源) ChatGPT Images 2.0。主打“听话”,在多目标精准组合、复杂 UI 截图生成和指令遵循上表现极其稳定。